The recurrent structure is a prevalent framework for the task of video super-resolution, which models the temporal dependency between frames via hidden states. When applied to real-world scenarios with unknown and complex degradations, hidden states tend to contain unpleasant artifacts and propagate them to restored frames. In this circumstance, our analyses show that such artifacts can be largely alleviated when the hidden state is replaced with a cleaner counterpart. Based on the observations, we propose a Hidden State Attention (HSA) module to mitigate artifacts in real-world video super-resolution. Specifically, we first adopt various cheap filters to produce a hidden state pool. For example, Gaussian blur filters are for smoothing artifacts while sharpening filters are for enhancing details. To aggregate a new hidden state that contains fewer artifacts from the hidden state pool, we devise a Selective Cross Attention (SCA) module, in which the attention between input features and each hidden state is calculated. Equipped with HSA, our proposed method, namely FastRealVSR, is able to achieve 2x speedup while obtaining better performance than Real-BasicVSR. Codes will be available at https://github.com/TencentARC/FastRealVSR
translated by 谷歌翻译
文档级信息提取(IE)任务最近开始使用端到端的神经网络技术对其句子级别的IE同行进行认真重新审视。但是,对方法的评估在许多维度上受到限制。特别是,Precision/Recell/F1分数通常报道,几乎没有关于模型造成的错误范围的见解。我们基于Kummerfeld和Klein(2013)的工作,为基于转换的框架提出了用于文档级事件和(N- ARY)关系提取的自动化错误分析的框架。我们采用我们的框架来比较来自三个域的数据集上的两种最先进的文档级模板填充方法;然后,为了衡量IE自30年前成立以来的进展,与MUC-4(1992)评估的四个系统相比。
translated by 谷歌翻译
在我们最近在加纳被动饮食监测的饮食评估现场研究中,我们收集了超过25万件野外图像。该数据集是一种持续的努力,旨在通过被动监控摄像头技术在低收入和中等收入国家中准确测量单个食物和营养摄入量。目前的数据集涉及加纳农村地区和城市地区的20个家庭(74个受试者),研究中使用了两种不同类型的可穿戴摄像机。一旦开始,可穿戴摄像机会不断捕获受试者的活动,该活动会产生大量的数据,以便在进行分析之前清洁和注释。为了简化数据后处理和注释任务,我们提出了一个新颖的自学学习框架,以将大量以自我为中心的图像聚集到单独的事件中。每个事件都由一系列时间连续和上下文相似的图像组成。通过将图像聚集到单独的事件中,注释者和营养师可以更有效地检查和分析数据,并促进随后的饮食评估过程。在带有地面真实标签的固定测试套装上验证,拟议的框架在聚集质量和分类准确性方面优于基准。
translated by 谷歌翻译
相邻帧的比对被认为是视频超分辨率(VSR)中的重要操作。高级VSR模型,包括最新的VSR变形金刚,通常配备精心设计的对齐模块。但是,自我注意机制的进步可能违反了这种常识。在本文中,我们重新考虑了对齐在VSR变压器中的作用,并进行了几种违反直觉的观察。我们的实验表明:(i)VSR变形金刚可以直接利用来自非对齐视频的多帧信息,并且(ii)现有的对齐方法有时对VSR变形金刚有害。这些观察结果表明,我们可以仅通过删除对齐模块并采用更大的注意力窗口来进一步提高VSR变压器的性能。然而,这样的设计将大大增加计算负担,无法处理大型动议。因此,我们提出了一种称为斑块对齐的新的,有效的对准方法,该方法将图像贴片而不是像素对齐。配备贴片对齐的VSR变形金刚可以在多个基准测试上证明最先进的性能。我们的工作提供了有关如何在VSR中使用多帧信息以及如何为不同网络/数据集选择对齐方法的宝贵见解。代码和模型将在https://github.com/xpixelgroup/rethinkvsralignment上发布。
translated by 谷歌翻译
用户嵌入(用户的矢量化表示)对于推荐系统至关重要。已经提出了许多方法来为用户构建代表性,以找到用于检索任务的类似项目,并且已被证明在工业推荐系统中也有效。最近,人们发现使用多个嵌入式代表用户的能力,希望每个嵌入代表用户对某个主题的兴趣。通过多息表示,重要的是要对用户对不同主题的喜好进行建模以及偏好如何随时间变化。但是,现有方法要么无法估算用户对每个利息的亲和力,要么不合理地假设每个用户的每一个利息随时间而逐渐消失,从而损害了候选人检索的召回。在本文中,我们提出了多功能偏好(MIP)模型,这种方法不仅可以通过更有效地使用用户的顺序参与来为用户产生多种利益因此,可以按比例地从每个利息中检索候选人。在各种工业规模的数据集上进行了广泛的实验,以证明我们方法的有效性。
translated by 谷歌翻译
模拟/混合信号电路设计是整个芯片设计过程中最复杂,最耗时的阶段之一。由于芯片制造的各种过程,电压和温度(PVT)变化,模拟电路不可避免地会遭受性能降解。尽管在典型条件下自动化模拟电路设计方面已经有很多工作,但在探索在真实且不可预测的硅变化下探索可靠设计的研究有限。针对变化的自动模拟设计需要过度的计算和时间成本。为了应对挑战,我们提出了RobustanAlog,这是一个强大的电路设计框架,涉及优化过程中的变化信息。具体而言,不同变化下的电路优化被认为是一组任务。任务之间的相似之处是杠杆作用,并且可以缓解竞争以实现样本效率高的多任务培训。此外,Robustanalog根据每次迭代中当前的性能来修剪任务空间,从而导致进一步的模拟成本降低。这样,鲁棒可以迅速产生一组电路参数,这些电路参数满足各种变化的各种约束(例如增益,带宽,噪声...)。我们将Robustanalog与贝叶斯优化,进化算法和深层确定性策略梯度(DDPG)进行了比较,并证明Robustanalog可以将所需的优化时间显着减少14-30次。因此,我们的研究提供了一种处理各种真实硅条件的可行方法。
translated by 谷歌翻译
这项研究提出了一种分布式算法,该算法通过自动决策,平滑的羊群和分布良好的捕获来使代理的自适应分组捕获多个目标。代理商根据环境信息做出自己的决定。提出了一种改进的人工潜在方法,以使代理能够平稳自然地改变形成以适应环境。拟议的策略确保了群体的协调发展在群体上陷入多个目标的现象。我们使用仿真实验和设计指标来验证提出方法的性能,以分析这些模拟和物理实验。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
股票价格随着典型的趋势波动而不是纯粹随机散步。传统上,未来库存流动的预测是基于历史贸易记录。如今,随着社交媒体的发展,市场上的许多积极参与者选择宣传他们的策略,这为窗户提供了一个窗口,通过提取社交媒体背后的语义来瞥见整个市场对未来运动的态度。但是,社交媒体包含相互冲突的信息,无法完全取代历史记录。在这项工作中,我们提出了一种多模态注意网络,以减少冲突并集成语义和数字特征,以全面预测未来库存运动。具体而言,我们首先从社交媒体提取语义信息,并根据海报的身份和公众声誉估算他们的信誉。然后我们将语义从在线帖子和数字特征融入历史记录,以进行交易策略。实验结果表明,我们的方法在预测准确性(61.20 \%)和交易利润(9.13 \%)中,我们的方法优于先前的方法。它表明,我们的方法提高了库存运动预测的性能,并向未来的多种式融合朝向库存预测的研究。
translated by 谷歌翻译
无监督的域适应性(UDA)旨在使标记的源域的模型适应未标记的目标域。现有的基于UDA的语义细分方法始终降低像素级别,功能级别和输出级别的域移动。但是,几乎所有这些都在很大程度上忽略了上下文依赖性,该依赖性通常在不同的领域共享,从而导致较不怀疑的绩效。在本文中,我们提出了一个新颖的环境感知混音(camix)框架自适应语义分割的框架,该框架以完全端到端的可训练方式利用了上下文依赖性的这一重要线索作为显式的先验知识,以增强对适应性的适应性目标域。首先,我们通过利用积累的空间分布和先前的上下文关系来提出上下文掩盖的生成策略。生成的上下文掩码在这项工作中至关重要,并将指导三个不同级别的上下文感知域混合。此外,提供了背景知识,我们引入了重要的一致性损失,以惩罚混合学生预测与混合教师预测之间的不一致,从而减轻了适应性的负面转移,例如早期绩效降级。广泛的实验和分析证明了我们方法对广泛使用的UDA基准的最新方法的有效性。
translated by 谷歌翻译